Exploratory Data Analysis (EDA) হল ডেটা সায়েন্সের একটি গুরুত্বপূর্ণ প্রক্রিয়া, যার মাধ্যমে ডেটাকে গভীরভাবে বিশ্লেষণ করা হয়। EDA-এর মূল উদ্দেশ্য হল ডেটা সেটের বিভিন্ন বৈশিষ্ট্য, প্যাটার্ন, সম্পর্ক, এবং ত্রুটি বা অস্বাভাবিকতা সনাক্ত করা। এটি মূলত ডেটা সেটের কাঠামো, বৈশিষ্ট্য, এবং প্রকৃতির সাথে পরিচিত হওয়ার জন্য প্রথম পর্যায়ে করা হয়, যা পরবর্তী বিশ্লেষণ এবং মডেলিংয়ের জন্য উপকারী।
EDA একটি গণনামূলক ও গ্রাফিকাল বিশ্লেষণ প্রক্রিয়া, যেখানে ডেটার গাণিতিক এবং ভিজ্যুয়াল উপস্থাপনা মাধ্যমে বিভিন্ন তথ্য সংগ্রহ করা হয়। এটি ডেটার অভ্যন্তরীণ সম্পর্ক এবং বৈশিষ্ট্য বুঝতে সাহায্য করে, যার ফলে সঠিক সিদ্ধান্ত নেওয়া এবং মডেল তৈরি করা সহজ হয়।
প্রথমেই ডেটা সংগ্রহ করা হয়, যা সাধারণত একটি ডেটাসেট হতে পারে (যেমন CSV, Excel, SQL ডেটাবেস বা API থেকে প্রাপ্ত)। এই ডেটা সংগ্রহের পরে, EDA প্রক্রিয়া শুরু হয়।
ডেটা প্রক্রিয়াকরণ একটি গুরুত্বপূর্ণ পদক্ষেপ, যেখানে ডেটাকে বিশ্লেষণের জন্য প্রস্তুত করা হয়। এর মধ্যে অন্তর্ভুক্ত:
ডেটার মৌলিক গাণিতিক বিবরণ এবং পরিসংখ্যান বিশ্লেষণ করা হয়। এটি অন্তর্ভুক্ত:
উদাহরণ:
import pandas as pd
# ডেটা লোড
data = pd.read_csv("dataset.csv")
# মৌলিক পরিসংখ্যান
print(data.describe())
EDA-তে ভিজ্যুয়ালাইজেশন অত্যন্ত গুরুত্বপূর্ণ, কারণ এটি ডেটার সম্পর্ক, প্যাটার্ন এবং প্রবণতাগুলি আরও ভালোভাবে বুঝতে সহায়ক। কিছু সাধারণ ভিজ্যুয়ালাইজেশন প্রযুক্তি:
উদাহরণ:
import seaborn as sns
import matplotlib.pyplot as plt
# হিস্টোগ্রাম
sns.histplot(data['column_name'], kde=True)
plt.show()
# বক্স প্লট
sns.boxplot(x=data['column_name'])
plt.show()
# স্ক্যাটার প্লট
sns.scatterplot(x=data['column1'], y=data['column2'])
plt.show()
# হিটম্যাপ
sns.heatmap(data.corr(), annot=True, cmap="coolwarm")
plt.show()
EDA-তে একটি গুরুত্বপূর্ণ পদক্ষেপ হল ভেরিয়েবলগুলির মধ্যে সম্পর্ক বা কোরিলেশন বিশ্লেষণ করা। সম্পর্ক বিশ্লেষণের মাধ্যমে আপনি বুঝতে পারেন যে দুটি ভেরিয়েবল একে অপরের সাথে সম্পর্কিত কি না, এবং সেই সম্পর্ক কেমন (যেমন, পজিটিভ কোরিলেশন, নেগেটিভ কোরিলেশন)।
উদাহরণ:
# কোরিলেশন ম্যাট্রিক্স
correlation = data.corr()
print(correlation)
# হিটম্যাপের মাধ্যমে কোরিলেশন ভিজ্যুয়ালাইজেশন
sns.heatmap(correlation, annot=True, cmap="coolwarm")
plt.show()
Exploratory Data Analysis (EDA) হল ডেটা বিশ্লেষণের প্রথম ধাপ যা ডেটার প্রকৃতি এবং কাঠামো বুঝতে সাহায্য করে। এটি স্ট্যাটিস্টিক্যাল সারাংশ, ভিজ্যুয়ালাইজেশন, এবং সম্পর্ক বিশ্লেষণের মাধ্যমে ডেটার অন্তর্নিহিত প্যাটার্ন এবং ত্রুটিগুলি বের করতে সহায়ক। EDA একটি অত্যন্ত গুরুত্বপূর্ণ প্রক্রিয়া, যা পরবর্তী মডেলিং বা ডেটা বিশ্লেষণের জন্য সহায়ক গাইডলাইন সরবরাহ করে।
Exploratory Data Analysis (EDA) হল একটি প্রাথমিক বিশ্লেষণ প্রক্রিয়া, যা ডেটা সেটের মধ্যে প্যাটার্ন, সম্পর্ক এবং অস্বাভাবিকতা (outliers) সনাক্ত করতে সহায়ক। এটি ডেটার গঠন, বৈশিষ্ট্য এবং প্রাথমিক ইনসাইট জানতে ব্যবহৃত হয়, যা পরে আরও গভীর বিশ্লেষণ বা মডেলিং প্রক্রিয়ায় সহায়ক হতে পারে। EDA একটি অত্যন্ত গুরুত্বপূর্ণ পদক্ষেপ, কারণ এটি ডেটার প্রকৃত চরিত্র বোঝার জন্য এবং সিদ্ধান্ত গ্রহণের প্রক্রিয়া সহজ করার জন্য সহায়ক।
EDA ডেটার মধ্যে যে কোনো ত্রুটি, মিসিং ডেটা, অস্বাভাবিকতা, বা সম্ভাব্য সম্পর্কগুলি সনাক্ত করতে সহায়ক, যাতে পরবর্তী পর্যায়ে কার্যকর বিশ্লেষণ এবং মডেল তৈরি করা যায়।
EDA অনেক ধরনের বিশ্লেষণ এবং ডেটা প্রক্রিয়াকরণের জন্য ব্যবহৃত হয়, বিশেষত মেশিন লার্নিং মডেল তৈরি করার পূর্বে ডেটা বিশ্লেষণের জন্য।
EDA প্রাথমিকভাবে বিভিন্ন পরিসংখ্যানিক এবং ভিজ্যুয়ালাইজেশন কৌশল ব্যবহার করে ডেটার গভীর বিশ্লেষণ করা হয়। Python-এ Matplotlib, Seaborn, Pandas ইত্যাদি লাইব্রেরি EDA কার্যক্রমের জন্য অত্যন্ত জনপ্রিয়।
উদাহরণ:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# ডেটাসেট লোড
df = sns.load_dataset('iris')
# Pairplot এর মাধ্যমে সম্পর্ক বিশ্লেষণ
sns.pairplot(df)
plt.show()
EDA-এর মাধ্যমে আপনি মিসিং ডেটা চিহ্নিত করতে পারেন, যেমন কোনও সেল খালি (NaN) হতে পারে বা ভুল মান থাকতে পারে। এর মাধ্যমে আপনি সেই ডেটা পূর্ণ করার জন্য একটি প্রক্রিয়া নির্ধারণ করতে পারবেন, যেমন, গড়, মধ্যক বা পূর্ববর্তী মান দিয়ে পূর্ণ করা।
উদাহরণ:
# মিসিং ডেটা চেক
print(df.isnull().sum())
EDA সাধারণত পরিসংখ্যানিক পরিমাপ যেমন mean, median, mode, standard deviation ইত্যাদি বিশ্লেষণ করে। এগুলি ডেটার কেন্দ্রীয় প্রবণতা এবং বৈচিত্র্য বোঝার জন্য ব্যবহৃত হয়।
# পরিসংখ্যানিক পরিমাপ
print(df.describe())
ডেটার বিভিন্ন ফিচারের মধ্যে সম্পর্ক বা correlation বিশ্লেষণ করা EDA এর একটি গুরুত্বপূর্ণ অংশ। Correlation Matrix বা Heatmap ব্যবহার করে দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখা যায়।
উদাহরণ:
# Correlation matrix প্লট
corr = df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.show()
EDA এর মাধ্যমে ডেটার বিভিন্ন ফিচারের মধ্যে সম্পর্ক বিশ্লেষণ করার পর, আপনি সিদ্ধান্ত নিতে পারেন কোন ফিচারগুলি মডেল তৈরির জন্য সবচেয়ে গুরুত্বপূর্ণ। এটি পরবর্তী মডেলিং বা মেশিন লার্নিং কাজের জন্য সহায়ক।
Exploratory Data Analysis (EDA) হল একটি প্রাথমিক, কিন্তু অত্যন্ত গুরুত্বপূর্ণ পর্যায় ডেটা বিশ্লেষণে। এটি ডেটার বিভিন্ন দিক বিশ্লেষণ করতে সহায়ক যেমন, ডেটার গঠন, প্যাটার্ন, সম্পর্ক, outliers, এবং মিসিং ডেটা ইত্যাদি। EDA ব্যবহারের মাধ্যমে, আপনি ডেটার প্রাথমিক তথ্য প্রাপ্তি, তার বৈশিষ্ট্য সম্বন্ধে ধারণা লাভ করতে পারবেন, যা পরে আরও গভীর বিশ্লেষণ বা মডেলিং প্রক্রিয়ায় সহায়ক হবে। Python-এ NumPy, Pandas, Matplotlib, Seaborn ইত্যাদি লাইব্রেরি ব্যবহার করে EDA কার্যক্রম সহজভাবে সম্পাদন করা যায়।
Univariate এবং Bivariate Analysis হল ডেটা বিশ্লেষণের দুটি গুরুত্বপূর্ণ প্রক্রিয়া যা ডেটার মধ্যে সম্পর্ক, প্যাটার্ন, এবং ট্রেন্ড শনাক্ত করতে ব্যবহৃত হয়। এগুলি ডেটা সায়েন্স, পরিসংখ্যান এবং অন্যান্য বিশ্লেষণমূলক কাজের জন্য অত্যন্ত গুরুত্বপূর্ণ।
Univariate analysis হল একটি মাত্র চলকের (variable) বিশ্লেষণ। এতে একক চলকের জন্য ডেটার বেসিক চরিত্র, যেমন গড়, মধ্যম মান, ব্যাপ্তি, বিচ্যুতি, বা ফ্রিকোয়েন্সি বিতরণ বিশ্লেষণ করা হয়। Univariate analysis মূলত একটি চলকের স্ট্যাটিস্টিক্যাল সারাংশ বের করার জন্য ব্যবহৃত হয় এবং এটি ডেটার মৌলিক বৈশিষ্ট্য বুঝতে সাহায্য করে।
import pandas as pd
# ডেটা তৈরি
data = {'Age': [23, 25, 22, 30, 28, 22, 25, 30, 28, 29]}
df = pd.DataFrame(data)
# গড়, মধ্যম মান, মোড, স্ট্যান্ডার্ড ডেভিয়েশন বের করা
mean_age = df['Age'].mean()
median_age = df['Age'].median()
mode_age = df['Age'].mode()[0]
std_dev_age = df['Age'].std()
print(f"Mean: {mean_age}, Median: {median_age}, Mode: {mode_age}, Standard Deviation: {std_dev_age}")
Univariate analysis এ histogram, boxplot এবং density plots খুবই জনপ্রিয় গ্রাফ।
import matplotlib.pyplot as plt
# Histogram
plt.hist(df['Age'], bins=5, color='skyblue', edgecolor='black')
plt.title('Age Distribution')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()
# Boxplot
plt.boxplot(df['Age'], vert=False)
plt.title('Age Boxplot')
plt.show()
Bivariate analysis হল দুটি চলকের (variable) মধ্যে সম্পর্ক বিশ্লেষণ। এই বিশ্লেষণের মাধ্যমে আপনি দুটি চলকের মধ্যে সম্পর্কের ধরন (যেমন, লিনিয়ার, নন-লিনিয়ার) এবং তাদের একে অপরের সাথে সম্পর্ক বোঝার চেষ্টা করেন। এটি আপনাকে দুটি চলকের মধ্যে সম্পর্কের শক্তি এবং প্রকৃতি (যেমন, ধনাত্মক, ঋণাত্মক বা কোন সম্পর্ক নেই) চিহ্নিত করতে সহায়ক।
Pearson's correlation coefficient
দ্বারা পরিমাপ করা হয়, যার মান -1 থেকে +1 পর্যন্ত হতে পারে।import pandas as pd
# ডেটা তৈরি
data = {'Height': [5.5, 6.2, 5.8, 6.0, 5.6, 5.9, 6.1],
'Weight': [65, 72, 68, 75, 70, 72, 74]}
df = pd.DataFrame(data)
# সম্পর্ক বের করা
correlation = df['Height'].corr(df['Weight'])
print(f"Correlation between Height and Weight: {correlation}")
Bivariate analysis এ scatter plot খুবই জনপ্রিয়, যা দুটি চলকের মধ্যে সম্পর্ক চিত্রিত করে।
import matplotlib.pyplot as plt
# Scatter plot
plt.scatter(df['Height'], df['Weight'], color='red')
plt.title('Height vs Weight')
plt.xlabel('Height')
plt.ylabel('Weight')
plt.show()
Feature | Univariate Analysis | Bivariate Analysis |
---|---|---|
Number of Variables | একক চলক (Single variable) | দুটি চলক (Two variables) |
Purpose | একক চলকের স্ট্যাটিস্টিক্যাল সারাংশ বের করা | দুটি চলকের মধ্যে সম্পর্ক বিশ্লেষণ |
Examples | গড়, মধ্যম মান, মোড, স্ট্যান্ডার্ড ডেভিয়েশন | সম্পর্ক, স্ক্যাটার প্লট, কোরিলেশন |
Visualizations | Histogram, Boxplot, Density plot | Scatter plot, Heatmap |
Outcome | ডেটার মৌলিক বৈশিষ্ট্য, প্যাটার্ন চিহ্নিত করা | দুটি চলকের মধ্যে সম্পর্ক এবং সম্পর্কের ধরন |
Univariate Analysis হল একক চলকের পরিসংখ্যান বিশ্লেষণ, যেখানে Bivariate Analysis দুটি চলকের মধ্যে সম্পর্ক বিশ্লেষণ করে। Univariate analysis ডেটার মৌলিক চরিত্র, যেমন গড়, মধ্যম মান, এবং আউটলায়ার চিহ্নিত করতে ব্যবহৃত হয়, যখন Bivariate analysis দুটি চলকের মধ্যে সম্পর্ক এবং সম্পর্কের শক্তি বোঝার জন্য ব্যবহৃত হয়। Bivariate analysis-এ সাধারণত স্ক্যাটার প্লট এবং সম্পর্কের গাণিতিক মাপ (যেমন কোরিলেশন) ব্যবহৃত হয়।
Correlation এবং Covariance হল দুটি পরিসংখ্যানিক পরিমাপ যা দুটি চলক বা ভেরিয়েবল-এর মধ্যে সম্পর্ক বিশ্লেষণ করতে ব্যবহৃত হয়। এগুলি আমাদের বুঝতে সাহায্য করে কিভাবে দুটি ভেরিয়েবল একে অপরের সাথে সম্পর্কিত এবং একটি ভেরিয়েবলের পরিবর্তন অন্য ভেরিয়েবলের পরিবর্তনে কিভাবে প্রভাব ফেলে।
Covariance দুটি চলক বা ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ দেয়। এটি পরিমাপ করে কিভাবে দুটি ভেরিয়েবল একে অপরের সাথে একই দিকে (positive covariance) বা বিপরীত দিকে (negative covariance) চলাচল করে। Covariance-এর মান দুটি ভেরিয়েবলের একে অপরের সাথে সম্পর্কের শক্তি এবং দিক নির্দেশ করে, কিন্তু এটি সেই সম্পর্কের শক্তি নির্দেশ করে না এবং এর একক কোনো নির্দিষ্ট স্কেল থাকে না।
Cov(X,Y)=∑(Xi−ˉX)(Yi−ˉY)n
এখানে:
Correlation দুটি চলকের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে, কিন্তু এটি একটি স্কেল-মুক্ত পরিমাপ, যা চলকদের মধ্যে সম্পর্কের শক্তি নির্ধারণ করতে সাহায্য করে। Correlation সাধারণত Pearson correlation coefficient দ্বারা পরিমাপ করা হয়, যা একটি মান প্রদান করে -১ থেকে +১ পর্যন্ত।
r=Cov(X,Y)σX⋅σY
এখানে:
বৈশিষ্ট্য | Covariance | Correlation |
---|---|---|
মূল্য পরিসীমা | কোনো নির্দিষ্ট পরিসীমা নেই (যেকোনো মান হতে পারে) | -1 থেকে +1 পর্যন্ত |
একক | একক নির্ধারিত নয় (যেকোনো একক হতে পারে) | একক-মুক্ত (স্ট্যান্ডার্ড পরিমাপ) |
সম্পর্কের শক্তি | শক্তি নির্ধারণ করতে পারেন না | সম্পর্কের শক্তি এবং দিক নির্ধারণ করে |
ব্যবহার | দুটি ভেরিয়েবলের মধ্যে সম্পর্কের দিক এবং শক্তি বোঝায় | দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিকের সমন্বিত পরিমাপ |
Pandas-এ সহজেই covariance এবং correlation বের করা যায়।
import pandas as pd
# DataFrame তৈরি করা
data = {'X': [1, 2, 3, 4, 5], 'Y': [5, 4, 3, 2, 1]}
df = pd.DataFrame(data)
# Covariance বের করা
cov_matrix = df.cov()
print(cov_matrix)
এখানে, cov()
ফাংশনটি DataFrame এর মধ্যে covariance বের করে দেয়।
# Correlation বের করা
correlation_matrix = df.corr()
print(correlation_matrix)
এখানে, corr()
ফাংশনটি DataFrame এর মধ্যে correlation বের করে দেয়।
Covariance এবং Correlation দুটি পরিসংখ্যানিক পরিমাপ যা ভেরিয়েবলের মধ্যে সম্পর্ক বুঝতে সাহায্য করে। Covariance সম্পর্কের দিক এবং শক্তি নির্ধারণ করে, তবে এটি একক নির্ধারণে সক্ষম নয় এবং এর মান স্কেল-মুক্ত নয়। অপরদিকে, Correlation ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক বোঝায়, এবং এটি একটি স্কেল-মুক্ত পরিমাপ (যা -1 থেকে +1 এর মধ্যে থাকে)। Correlation সম্পর্কের শক্তি এবং দিক সম্পর্কে আরও বিস্তারিত তথ্য প্রদান করে।
ডেটা সায়েন্স এবং পরিসংখ্যানের ক্ষেত্রের গুরুত্বপূর্ণ দুটি ধারণা হলো Data Distribution এবং Outliers Detection। এগুলি ডেটার বৈশিষ্ট্য বুঝতে সাহায্য করে এবং মডেল ট্রেনিং বা ডেটা বিশ্লেষণের প্রক্রিয়ায় সহায়ক হয়।
Data Distribution হল ডেটার বন্টন বা ব্যাবস্থাপন যেটি বিভিন্ন উপায়ে নির্ধারণ করা যেতে পারে। এটি মূলত একটি গাণিতিক ধারণা যা একটি ডেটা সেটের মানগুলি কিভাবে সাজানো হয়েছে বা তারা কোথায় কেন্দ্রীভূত আছে তা বুঝতে সাহায্য করে। ডেটা ডিস্ট্রিবিউশন বোঝা আমাদের জন্য গুরুত্বপূর্ণ কারণ এটি ডেটা পরিসংখ্যানের কাঠামো এবং বৈশিষ্ট্য নির্ধারণে সহায়ক।
ডেটার বন্টন বুঝতে হিস্টোগ্রাম বা কোর্নেল ডেনসিটি এস্টিমেট (Kernel Density Estimate, KDE) চার্ট ব্যবহার করা হয়। উদাহরণস্বরূপ:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# কিছু নমুনা ডেটা তৈরি করা
data = pd.Series([2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 15, 18, 22, 25, 30])
# Hist plot এবং KDE plot
sns.histplot(data, kde=True)
plt.show()
Outliers বা অস্বাভাবিক মান হল এমন ডেটা পয়েন্ট যা অন্যান্য ডেটা পয়েন্টের তুলনায় অস্বাভাবিকভাবে আলাদা বা দূরে থাকে। আউটলায়ারগুলি ডেটা বিশ্লেষণ এবং মডেলিংয়ের ফলাফলকে প্রভাবিত করতে পারে, তাই এগুলি সনাক্ত করা এবং নির্ধারণ করা গুরুত্বপূর্ণ।
import numpy as np
import pandas as pd
from scipy import stats
# কিছু নমুনা ডেটা তৈরি
data = pd.Series([10, 12, 12, 14, 15, 16, 18, 100])
# Z-score হিসেব করা
z_scores = np.abs(stats.zscore(data))
print("Z-scores:", z_scores)
# Outliers সনাক্ত করা
outliers = data[z_scores > 2] # যেকোনো Z-score 2 এর বেশি হলে আউটলায়ার
print("Outliers:", outliers)
# IQR দিয়ে আউটলায়ার সনাক্তকরণ
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = data[(data < lower_bound) | (data > upper_bound)]
print("Outliers detected:", outliers)
Data Distribution এবং Outliers Detection হল ডেটা বিশ্লেষণ এবং মডেলিংয়ের দুটি অত্যন্ত গুরুত্বপূর্ণ দিক। Data Distribution ডেটার বৈশিষ্ট্য এবং গঠন বিশ্লেষণ করতে সাহায্য করে, যখন Outliers Detection ডেটার অস্বাভাবিক বা দূরের মান সনাক্ত করতে সহায়ক, যা মডেলিং এবং পরিসংখ্যান বিশ্লেষণের সঠিকতা প্রভাবিত করতে পারে। Outliers সঠিকভাবে চিহ্নিত এবং পরিচালনা করা ডেটা বিশ্লেষণে সঠিক ফলাফল পেতে গুরুত্বপূর্ণ।
Data Visualization এবং Summary Statistics দুটি গুরুত্বপূর্ণ দিক যা ডেটা বিশ্লেষণ এবং সিদ্ধান্ত গ্রহণের প্রক্রিয়াতে সহায়ক। Data Visualization আমাদের ডেটার প্যাটার্ন, প্রবণতা, এবং সম্পর্ক দেখতে সাহায্য করে, যখন Summary Statistics ডেটার একটি সারসংক্ষেপ প্রদান করে যা মূল বৈশিষ্ট্য এবং বিভাজন নির্দেশ করে।
Data Visualization হল ডেটা গ্রাফিক্যাল উপস্থাপনা, যা ডেটার প্রবণতা এবং সম্পর্ককে সহজে বুঝতে সহায়ক। এটি গাণিতিক এবং পরিসংখ্যান বিশ্লেষণের ফলাফলগুলি ভিজ্যুয়ালি উপস্থাপন করতে ব্যবহৃত হয়।
Python-এর Matplotlib, Seaborn, এবং Plotly ইত্যাদি জনপ্রিয় লাইব্রেরি ডেটা ভিজ্যুয়ালাইজেশনের জন্য ব্যবহৃত হয়।
Matplotlib একটি শক্তিশালী এবং জনপ্রিয় Python লাইব্রেরি যা সহজে গ্রাফ এবং প্লট তৈরি করতে সহায়ক। এর সাহায্যে আপনি বিভিন্ন ধরনের প্লট তৈরি করতে পারেন, যেমন line plots, scatter plots, bar charts, histograms, pie charts, ইত্যাদি।
উদাহরণ: Line Plot
import matplotlib.pyplot as plt
# ডেটা
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
# লাইন প্লট তৈরি
plt.plot(x, y)
plt.title('Line Plot Example')
plt.xlabel('X Axis')
plt.ylabel('Y Axis')
# প্লট দেখানো
plt.show()
উদাহরণ: Bar Chart
import matplotlib.pyplot as plt
# ডেটা
categories = ['A', 'B', 'C', 'D']
values = [10, 20, 15, 25]
# বার প্লট তৈরি
plt.bar(categories, values)
plt.title('Bar Chart Example')
plt.xlabel('Categories')
plt.ylabel('Values')
# প্লট দেখানো
plt.show()
Seaborn Matplotlib-এর ওপর ভিত্তি করে তৈরি একটি লাইব্রেরি যা আরও উন্নত এবং আকর্ষণীয় ভিজ্যুয়ালাইজেশন তৈরি করতে সহায়ক। Seaborn ব্যবহার করা খুবই সহজ এবং এটি আরও সুন্দর এবং অর্থপূর্ণ গ্রাফ তৈরি করে।
উদাহরণ: Scatter Plot with Regression Line
import seaborn as sns
import matplotlib.pyplot as plt
# ডেটাসেট লোড
tips = sns.load_dataset('tips')
# স্ক্যাটার প্লট তৈরি
sns.regplot(x='total_bill', y='tip', data=tips)
# প্লট দেখানো
plt.title('Scatter Plot with Regression Line')
plt.show()
Plotly একটি লাইব্রেরি যা ইন্টারেকটিভ প্লট তৈরি করতে ব্যবহৃত হয়। এটি জটিল ভিজ্যুয়ালাইজেশন যেমন 3D গ্রাফ, ড্যাশবোর্ড তৈরি করতে সক্ষম।
উদাহরণ: Scatter Plot
import plotly.express as px
# ডেটাসেট লোড
tips = px.data.tips()
# স্ক্যাটার প্লট তৈরি
fig = px.scatter(tips, x="total_bill", y="tip", color="sex", title="Scatter Plot with Plotly")
# প্লট দেখানো
fig.show()
Summary Statistics হল ডেটার একটি সংক্ষিপ্ত সারাংশ যা আমাদের ডেটার মূল বৈশিষ্ট্য বা বিশ্লেষণ উপস্থাপন করে। এটি আমাদের ডেটার গড়, বিস্তার, স্কিউনেস, এবং অন্যান্য গাণিতিক উপাদান জানাতে সহায়ক।
Python-এর Pandas লাইব্রেরি summary statistics বের করতে সহায়ক এবং এটি ডেটা বিশ্লেষণের জন্য অত্যন্ত জনপ্রিয়।
Descriptive Statistics ডেটার মৌলিক গুণাবলী যেমন গড়, স্ট্যান্ডার্ড ডেভিয়েশন, এবং কোয়ারটাইল মান বের করতে সহায়ক।
উদাহরণ: Descriptive Statistics (গড়, স্ট্যান্ডার্ড ডেভিয়েশন, মিনিমাম, ম্যাক্সিমাম)
import pandas as pd
# একটি সিম্পল DataFrame তৈরি
data = {'Age': [24, 27, 22, 32, 29], 'Salary': [50000, 60000, 55000, 70000, 65000]}
df = pd.DataFrame(data)
# বর্ণনামূলক পরিসংখ্যান
print(df.describe())
আউটপুট:
Age Salary
count 5.000000 5.000000
mean 26.800000 62000.000000
std 4.027692 7586.051942
min 22.000000 50000.000000
25% 24.000000 55000.000000
50% 27.000000 60000.000000
75% 29.000000 65000.000000
max 32.000000 70000.000000
উদাহরণ: Mean, Median, Mode
# গড়, মধ্যক এবং মোড বের করা
mean_age = df['Age'].mean()
median_age = df['Age'].median()
mode_age = df['Age'].mode()[0]
print(f"Mean Age: {mean_age}")
print(f"Median Age: {median_age}")
print(f"Mode Age: {mode_age}")
আউটপুট:
Mean Age: 26.8
Median Age: 27.0
Mode Age: 24
উদাহরণ: Variance and Standard Deviation
# বৈচিত্র্য এবং স্ট্যান্ডার্ড ডেভিয়েশন বের করা
variance_age = df['Age'].var()
std_dev_age = df['Age'].std()
print(f"Variance in Age: {variance_age}")
print(f"Standard Deviation in Age: {std_dev_age}")
আউটপুট:
Variance in Age: 16.25
Standard Deviation in Age: 4.027692307358965
Correlation হল দুটি ভেরিয়েবলের মধ্যে সম্পর্ক বা সংযোগ। এটি একটি সংখ্যাগত পরিমাপ যা দুইটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে।
উদাহরণ: Correlation Coefficient
# কোরিলেশন বের করা
correlation = df['Age'].corr(df['Salary'])
print(f"Correlation between Age and Salary: {correlation}")
আউটপুট:
Correlation between Age and Salary: 0.6432966481949242
Read more